词的加工
标签
学习/心理学
字数
1997 字
阅读时间
8 分钟
词的表征 (word representation)
词的定义
定义:最小有音有义可以作为语言成分独立使用的语言单位。
与词汇相关的知识:
- 语音
- 字形
- 语义
- 语法属性
- 语用属性
词的语义 (semantic of words)
词和指代物之间的关系:
- 一一对应
- 一对多
- 有的物体并没有指定的词
词的指代物存在文化差异(语言与认知的关系),所以很多词翻译的时候无法直译;词的指代物与环境有关。
词汇语义关系表征的模型
语义网络模型 (associative network models)
- 层次网络模型 (the hierarchical network model)
- 每个概念具有一些特征
- 概念按照逻辑的上下级关系组成一个具有层次的网络系统
- 语义验证范式 (semantic verification experiments, Collins & Quillian, 1969) 无法解释:
- 语义联想 (Conrad, 1972)
- 一个类别中的典型物体比非典型物体的语义验证更快 (Rosch, 1973)
- 类型大小效应不能用层次网络模型解释 (Shoben & Rips, 1974)
- 激活扩散模型 (the spreading activation model)
- 每个词用网络中的节点表征
- 具有语义联想关系的词之间有连接
- 两个概念之间的关系越近,距离越近
- 网络中的一个节点激活后,与之相连的其他节点也会被激活
- 语义联想任务 (word association task)
- 语义启动任务 (Semantic priming effect)
- 启动词与目标词语义相关时,反应时间更短,因此当呈现一个词时,所有与它语义相关的概念都会被激活。
- Bock & Levelt model
- 现代网络模型
语义特征模型 (semantic feature model)
通过将词汇分解为一组基本的语义特征来描述词汇的意义。这些语义特征是一些抽象的属性,用于捕捉词汇之间的相似点和差异。
分布式表征模型 (distributed semantic network)
大规模语料库中包含着大量的词汇语义知识。模型假设通过提取大规模语料中的统计特征,能够表征词汇的知识。
- 词向量表征 (word embedding)
词汇表征的个体差异
词汇量
- 读者的词汇量(听说读写)存在个体差异
- 词汇量越多,阅读越容易。
个体差异:
- 一般成人的词汇量:10000-50000
- 60 岁以上:年轻人词汇量+6000
成长环境的影响:
- 词汇量的个体差异和阅读水平正相关 (Beck & McKeown, 1991)
- 社会经济地位 (SES) 影响词汇量
- 小学一年级有一倍以上的差异 (Craves & Salter 1987)
- SES 的影响到大学时仍然存在
重要性:
- 词汇量高的个体更好地表达和交流
- 词汇量的大小与阅读能力正相关
- 词汇量与思维词汇相关
- 人们会根据词汇量评价一个人
词汇知识的分级
- 从没见过
- 听说过,但不知道精确的意思
- 通过语境可以理解
- 可以使用一个词,但是没法解释
- 熟练使用能够给出定义
词汇质量
读者对特定词的了解程度,代表了词的形式、语义、语音、语用的知识。词汇质量存在个体差异。
- 准确性
- 灵活性
| 词汇的表征属性 | 高质量 | 低质量 |
|---|---|---|
| 正字法 | 完全指定;字母是常量 | 未完全指定;一些字母是变量 |
| 语音学 | 冗余的词汇特定语音和上下文敏感的字母-音素语音 | 由于词汇特定语音和/或字母-音素语音的变量而不太稳定 |
| 语法 | 表示的词的所有语法类别;表示的形态-句法变化 | 形式类别使用范围不完整;形态-句法不太稳定 |
| 意义 | 更加概括,较少上下文绑定;更全面的意义维度范围,用于区分同一语义领域中的词汇 | 更加上下文绑定;用于区分相关词汇的相关意义维度较少 |
| 成分绑定 | 正字法、语音学和语义成分紧密绑定 | 正字法、语音学和语义成分绑定较松散 |
- 对阅读的影响
| 对阅读的影响 | 高质量 | 低质量 |
|---|---|---|
| 稳定性 | 更高;词语身份可以可靠地从正字法或语音输入中检索 | 更低;词语身份有时无法从正字法或语音输入中检索 |
| 同步性 | 词语身份成分作为词语身份同步激活和检索 | 词语成分可能异步激活和检索;例如,费力的解码;从部分输入激活错误的意义 |
| 意义整合 | 更高;词语身份可用于构建理解 | 更低;在词语身份上操作的理解过程有风险 |
词汇提取 (Lexical Access)
词频效应 (Frequency effect)
Zipf’s Law:所有的语言都有一些常用词以及很多非常用词。
最小努力规则 (Least effort principle):高频词加工起来更容易。
词汇决定任务 (Lexical decision task):判别一个字符串是否是词的反应时可以反应心理词典中词的排列方式。
词汇命名实验 (Forster & Chambers, 1973)
自然阅读中的眼动实验(Rayner, 1998):高频词上的注视时间比低频词短。
词频与词长、词义数量、具体程度和熟悉程度相关。这些变量也会影响词汇提取过程。
语素加工 (Morphological complexity)
多语素词:
- 屈折语素 (Inflectional morpheme; e.g., jumped, jumps, …)
- 派生语素 (Derivational morphology; e.g., happiness, unhappy, happily,…)
- 复合词 (Compound words; e.g., milkman, snowman, etc.)
多语素词的加工方法:
- 整词加工 (Whole word view):多语素词作为一个整体表征 (Aitchisson, 1987)
- 分解加工 (Decomposition view):先剥离多语素词的前缀和后缀,提取出词根后,再进行词汇提取 (Taft, 1981)
- 词汇判断任务 (Lexical decision task; Taft, 1981)
- 启动范式 (Priming studies; Stanners, Neiser, & Painton, 1979)
- 有些研究表明常用的多语素词作为整体进行加工,非常用词利用分解加工 (Carroll, 1999)
字母位置编码 (Letter order encoding)
在字母书写系统中,字母位置对词汇识别很重要。
字母转置效应 (Transposed-letter Effects)
- 反应时:替换条件>转置条件>相同条件
- 转置字母在字母串中的位置影响字母位置编码。
- 在复合词中,转置字母的位置在词素内还是词素边界,也影响字母位置编码。
字母位置编码模型:
- 重叠模型 (the overlap model)
词优效应 (Word superiority effect)
识别单词中的字母比单独识别更准确。
- 这表明自下而上的处理过程与自上而下的处理过程之间存在相互作用。
词汇提取模型 (models of lexical access)
词汇提取模型尝试描述人们如何提取记忆中的词条,对人们理解什么是词以及词汇如何被识别的具有重要作用。
模型必须能够解释实验数据
词频效应 (Word frequency effect)
语义启动效应 (Semantic priming effect)
交叉激活模型
人工神经网络模型/PDP模型
芷沐沐